北航，清华，北大联合发布：异构智能体协同强化学习！

论文标题：Heterogeneous Agent Collaborative Reinforcement Learning 论文链接：https://arxiv.org/abs/2603.02604 Github Page: https://zzx-peter.github.io/hacrl/ Huggingface: https://huggingface.co/papers/2603.02604

主要贡献

异构协同强化学习（HACRL）

训练阶段共享经过验证的 rollouts

推理阶段各自独立部署执行

训练时协同优化，推理时各自独立运行

异构协同策略优化（HACPO）

能力与策略分布差异

实验结果

3.3%

一半的采样成本

问题背景：昂贵的 “单打独斗”，宝贵的 “异构数据”

rollout 采样与校验成本是整个微调流程的核心瓶颈

孤立优化范式

异构性

多智能体组成统一的系统

训练时协同优化

推理时各自独立运行

同构模型单向学习

异构模型的双向学习

论文的核心问题是：一个智能体能否利用其他异构智能体生成的 rollouts 来同时提升效果和效率？

异构智能体共享 Rollout：HACRL 范式

为了解决训练过程中模型的 “单打独斗”，该工作提出了一个新方法HACRL (Heterogeneous Agent Collaborative Reinforcement Learning)，多个异构智能体在训练时可以共享彼此的 Rollout (Response + Reward)，推理时则各自独立完成任务。HACRL 范式使得原本独立的智能体可以互相学习，同时提高了 Rollout 利用率。

HACRL 和现有的其它范式可不能混为一谈：

多个独立的模型

一个整体的系统

异构

相互学习

同构

单向传递

异构智能体强化学习 (HACRL) 与多智能体强化学习 (MARL)、知识蒸馏 (KD)

核心算法：HACPO

HACRL 可不是简单的 Rollout 共享！因为异构智能体之间存在着能力差异策略分布差异，如果异构模型来自于不同的厂家，那么模型的分词器也会不同，在共享数据时出现工程问题。

为了求解 HACRL 问题，该工作提出了一个新算法HACPO (Heterogeneous Agent Collaborative Policy Optimization)。它在基础的强化学习优化方法之上，引入了四项量身定制的修改，以弥合异构智能体之间的能力与分布差异。同时，该工作在理论证明了，利用自身和其它智能体 rollout 进行的梯度更新方向，在期望上具有小于 90 度的夹角。这表明 HACPO 是有效的。

HACPO 的算法流程图

1. 智能体能力感知的优势估计 (Agent-Capability-Aware Advantage Estimation)

该工作提出了一种能力感知的估计器，它根据每个智能体的相对性能，为其分配不同的组间优势基线。直观上，如果一个回应由更强的智能体生成，其优势应更高；若由更弱的智能体生成，则其优势应更低。理论上，该估计器是无偏的。

2. 模型能力差异系数 (Model Capabilities Discrepancy Coefficient)

为了鼓励向更强的智能体学习，同时对较弱的智能体保持保守，该工作使用能力比率来调节有效优势。能力比率

扮演两个互补的角色：（i）基线校准— 在估计能力感知基线时重新缩放奖励，以对齐异构智能体间的奖励统计量；（ii）梯度调制— 它作为一个类似学习率的因子，放大来自更强智能体的梯度，并衰减来自更弱智能体的梯度。调制后的优势为：

3. 指数重要性采样 (Exponential Importance Sampling)

该工作采用序列级别的重要性比率并将其扩展到异构多智能体设置，同时引入了非梯度指数重加权。这种设计使智能体偏向于从那些输出分布与其自身更一致的 rollout 中学习。对于具有不兼容分词器的异构智能体组合，将对应反分词器（detokenizer）得到文本，再使用目标智能体的分词器（tokenizer）重新进行分词。

4. 逐步裁剪 (Stepwise Clipping)

跨智能体重要性采样比率在步骤之间和步骤内部都会不规则地波动。该工作首先对跨智能体回应应用非对称裁剪边界，以确保跨智能体回应只能被降权，而永远不会被增权。然后，应用逐步裁剪策略，以防止跨智能体经验在批次内的后期更新中占据主导地位，从而提高训练稳定性。

实验现象：尺有所短，寸有所长

异构模型间的取长补短

实验设置与对比基线

该工作在 MATH 数据集上选取 7500 道高质量数学问题，并在七个具有挑战性的基准测试上评估 HACPO 的性能。为严格验证协同训练范式的有效性，将 HACPO 与下列三类基线方法进行了对比：

相同

一半

一倍

相同

该工作总结了三类异构，并分别进行了验证实验：

主实验结果

结果分析

该工作在状态异构、尺寸异构、模型异构三中 setting 下进行了多种实验，实验结果表明了 HACPO 的有效性。同时，将 HACPO 的效果归因为以下两种机制：

能力驱动的指导

互补知识的交换

状态异构：

弱模型（Qwen3-4B）提高7.1%，强模型（Qwen3-4B-Instruct）提高1.4%。模型异构性低，因此主要是强模型帮助弱模型，而弱模型难以对强模型有帮助。

尺寸异构：

大小模型都有提升，Qwen3-1.7B-Base 提升2.6%，Qwen3-4B-Base 提升2.3%。尽管小模型的准确率低于大模型，其仍然可以为大模型提供一些难以覆盖到的错误路径和少量正确路径，提供互补知识

模型异构：

即使模型异构程度很大，两个模型也都有提升。Qwen3-4B-Base 提高，Llama3.2-3B-Instruct 提高3.9%。这表明 HACPO 算法的通用性和鲁棒性。

效率、效果双提升：

等资源基线（GSPO×2）进行对比，HACPO 仅使用一半的 Rollout 成本，就实现了3.3% 的性能提升

消融实验

对于核心算法 HACPO 中的四个模块进行消融，实验证明了缺失任何一个模块都会导致模型性能的下降，表明了四个模块都是有效的。同时，指数重要性采样中的最佳指数在不同的模型组合上也会有不同。

讨论和展望

本文针对当前智能体强化学习面临的孤立优化采样成本高、异构大模型生态知识利用效率低的核心行业痛点，提出了异构智能体协同强化学习（HACRL）全新范式。该范式突破知识蒸馏单向师生传递的固有局限，实现了训练阶段异构智能体协同优化、推理阶段独立执行的核心设计。

面向未来，HACRL 范式的拓展方向主要包括以下几个方面：一是将适用场景从数学推理任务延伸至代码生成、多模态理解等更广泛的大模型核心下游任务，以验证其在通用场景下的普适性；二是探索更大规模的异构智能体协同训练网络，深入研究智能体间相互学习的效果边界与影响机制。此外，HACPO 的提出为跨异构智能体的数据统一复用奠定了初步框架，未来在迈向通用人工智能（AGI）的进程中，构建跨模型、跨领域的统一知识学习平台同样是不可或缺的重要方向。

作者：第一作者为北京航空航天大学本科生张之夏与博士生黄子轩，通讯作者为北京航空航天大学班义琨教授。